904 resultados para LINGUÍSTICA COMPUTACIONAL


Relevância:

60.00% 60.00%

Publicador:

Resumo:

Em agosto de 2012, o economista-chefe do Centro de Políticas Sociais da Fundação Getulio Vargas (FGV), Marcelo Neri, foi nomeado presidente do Instituto de Pesquisa Econômica Aplicada (Ipea). Em março do mesmo ano, ainda pela FGV, Neri lançara o livro A Nova Classe Média: o lado brilhante da base da pirâmide, que retoma a série de estudos sobre a nova classe média que vinha realizando pela Fundação desde 2008. O presente trabalho analisa mudanças no enquadramento das notícias do jornal O Globo relativas à nova classe média nos períodos em que Marcelo Neri atuou na FGV e, posteriormente, no governo federal, por meio de uma Análise de Enquadramento Textualmente Orientada – método crítico de análise dos enquadramentos da mídia cujo intuito é auxiliar na percepção e mensuração de mudanças nos vieses noticiosos em função de variáveis políticas. Tal metodologia alia a análise linguística de grandes volumes de texto à teoria social do discurso, e foi desenvolvida em parceria com a Escola de Matemática Aplicada (EMAp/FGV), tendo como base ferramentas computacionais de Linguística de Corpus e Processamento de Linguagem Natural (PLN).

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)

Relevância:

60.00% 60.00%

Publicador:

Resumo:

A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Information organization can be considered as a nuclear area in Information Science and its historical background has been historically built based on three theoretical approaches: subject cataloguing, under a North-American influence, Indexing, under a British influence, and document analysis, under a French influence. In this sense, although one can consider the strong influence of the logic-linguistic approach of the French tradition in information organization both in Brazil and in Spain, it is not already clear in what extent the mentioned influence specifically occurs in Brazil and Spain as well as what are the dialogical perspectives between them. So, and in order to analyze how the Information Science academic environments in Brazil and in Spain conceive the interdisciplinary relationships in the domain of document analysis (DA), it was applied a questionnaire to Brazilian and Spain DO researchers based on the records of the Brazilian and the Spanish International Society for Knowledge Organization chapters. The results (64,5% of answers in Brazil and 60,6% in Spain) allowed the identification of 35 DA interdisciplinary relationships in Brazil and 98 in Spain, whose data were so grouped in 7 matrixes ? cognitive, philosophical, historical, logic-lingusitic, quantitative, social and political, and technological. It was possible to observe that the logical-linguistic matrix is strongly predominant (90% of the answers in Brazil and in Spain) what reflects the influence of the ideas of Jean-Claude Gardin. On the other side, the graphic visualization of authors´s network showed a strong perspective of dialogical relationships among Brazilian and Spanish DA researchers, based on the convergence of theoretical conceptions, what allow us to conclude the need of joint research policies between both coountries in order to make the mention ed dialogical relationships real and fruitful.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Los hipergrafos dirigidos se han empleado en problemas relacionados con lógica proposicional, bases de datos relacionales, linguística computacional y aprendizaje automático. Los hipergrafos dirigidos han sido también utilizados como alternativa a los grafos (bipartitos) dirigidos para facilitar el estudio de las interacciones entre componentes de sistemas complejos que no pueden ser fácilmente modelados usando exclusivamente relaciones binarias. En este contexto, este tipo de representación es conocida como hiper-redes. Un hipergrafo dirigido es una generalización de un grafo dirigido especialmente adecuado para la representación de relaciones de muchos a muchos. Mientras que una arista en un grafo dirigido define una relación entre dos de sus nodos, una hiperarista en un hipergrafo dirigido define una relación entre dos conjuntos de sus nodos. La conexión fuerte es una relación de equivalencia que divide el conjunto de nodos de un hipergrafo dirigido en particiones y cada partición define una clase de equivalencia conocida como componente fuertemente conexo. El estudio de los componentes fuertemente conexos de un hipergrafo dirigido puede ayudar a conseguir una mejor comprensión de la estructura de este tipo de hipergrafos cuando su tamaño es considerable. En el caso de grafo dirigidos, existen algoritmos muy eficientes para el cálculo de los componentes fuertemente conexos en grafos de gran tamaño. Gracias a estos algoritmos, se ha podido averiguar que la estructura de la WWW tiene forma de “pajarita”, donde más del 70% del los nodos están distribuidos en tres grandes conjuntos y uno de ellos es un componente fuertemente conexo. Este tipo de estructura ha sido también observada en redes complejas en otras áreas como la biología. Estudios de naturaleza similar no han podido ser realizados en hipergrafos dirigidos porque no existe algoritmos capaces de calcular los componentes fuertemente conexos de este tipo de hipergrafos. En esta tesis doctoral, hemos investigado como calcular los componentes fuertemente conexos de un hipergrafo dirigido. En concreto, hemos desarrollado dos algoritmos para este problema y hemos determinado que son correctos y cuál es su complejidad computacional. Ambos algoritmos han sido evaluados empíricamente para comparar sus tiempos de ejecución. Para la evaluación, hemos producido una selección de hipergrafos dirigidos generados de forma aleatoria inspirados en modelos muy conocidos de grafos aleatorios como Erdos-Renyi, Newman-Watts-Strogatz and Barabasi-Albert. Varias optimizaciones para ambos algoritmos han sido implementadas y analizadas en la tesis. En concreto, colapsar los componentes fuertemente conexos del grafo dirigido que se puede construir eliminando ciertas hiperaristas complejas del hipergrafo dirigido original, mejora notablemente los tiempos de ejecucion de los algoritmos para varios de los hipergrafos utilizados en la evaluación. Aparte de los ejemplos de aplicación mencionados anteriormente, los hipergrafos dirigidos han sido también empleados en el área de representación de conocimiento. En concreto, este tipo de hipergrafos se han usado para el cálculo de módulos de ontologías. Una ontología puede ser definida como un conjunto de axiomas que especifican formalmente un conjunto de símbolos y sus relaciones, mientras que un modulo puede ser entendido como un subconjunto de axiomas de la ontología que recoge todo el conocimiento que almacena la ontología sobre un conjunto especifico de símbolos y sus relaciones. En la tesis nos hemos centrado solamente en módulos que han sido calculados usando la técnica de localidad sintáctica. Debido a que las ontologías pueden ser muy grandes, el cálculo de módulos puede facilitar las tareas de re-utilización y mantenimiento de dichas ontologías. Sin embargo, analizar todos los posibles módulos de una ontología es, en general, muy costoso porque el numero de módulos crece de forma exponencial con respecto al número de símbolos y de axiomas de la ontología. Afortunadamente, los axiomas de una ontología pueden ser divididos en particiones conocidas como átomos. Cada átomo representa un conjunto máximo de axiomas que siempre aparecen juntos en un modulo. La decomposición atómica de una ontología es definida como un grafo dirigido de tal forma que cada nodo del grafo corresponde con un átomo y cada arista define una dependencia entre una pareja de átomos. En esta tesis introducimos el concepto de“axiom dependency hypergraph” que generaliza el concepto de descomposición atómica de una ontología. Un modulo en una ontología correspondería con un componente conexo en este tipo de hipergrafos y un átomo de una ontología con un componente fuertemente conexo. Hemos adaptado la implementación de nuestros algoritmos para que funcionen también con axiom dependency hypergraphs y poder de esa forma calcular los átomos de una ontología. Para demostrar la viabilidad de esta idea, hemos incorporado nuestros algoritmos en una aplicación que hemos desarrollado para la extracción de módulos y la descomposición atómica de ontologías. A la aplicación la hemos llamado HyS y hemos estudiado sus tiempos de ejecución usando una selección de ontologías muy conocidas del área biomédica, la mayoría disponibles en el portal de Internet NCBO. Los resultados de la evaluación muestran que los tiempos de ejecución de HyS son mucho mejores que las aplicaciones más rápidas conocidas. ABSTRACT Directed hypergraphs are an intuitive modelling formalism that have been used in problems related to propositional logic, relational databases, computational linguistic and machine learning. Directed hypergraphs are also presented as an alternative to directed (bipartite) graphs to facilitate the study of the interactions between components of complex systems that cannot naturally be modelled as binary relations. In this context, they are known as hyper-networks. A directed hypergraph is a generalization of a directed graph suitable for representing many-to-many relationships. While an edge in a directed graph defines a relation between two nodes of the graph, a hyperedge in a directed hypergraph defines a relation between two sets of nodes. Strong-connectivity is an equivalence relation that induces a partition of the set of nodes of a directed hypergraph into strongly-connected components. These components can be collapsed into single nodes. As result, the size of the original hypergraph can significantly be reduced if the strongly-connected components have many nodes. This approach might contribute to better understand how the nodes of a hypergraph are connected, in particular when the hypergraphs are large. In the case of directed graphs, there are efficient algorithms that can be used to compute the strongly-connected components of large graphs. For instance, it has been shown that the macroscopic structure of the World Wide Web can be represented as a “bow-tie” diagram where more than 70% of the nodes are distributed into three large sets and one of these sets is a large strongly-connected component. This particular structure has been also observed in complex networks in other fields such as, e.g., biology. Similar studies cannot be conducted in a directed hypergraph because there does not exist any algorithm for computing the strongly-connected components of the hypergraph. In this thesis, we investigate ways to compute the strongly-connected components of directed hypergraphs. We present two new algorithms and we show their correctness and computational complexity. One of these algorithms is inspired by Tarjan’s algorithm for directed graphs. The second algorithm follows a simple approach to compute the stronglyconnected components. This approach is based on the fact that two nodes of a graph that are strongly-connected can also reach the same nodes. In other words, the connected component of each node is the same. Both algorithms are empirically evaluated to compare their performances. To this end, we have produced a selection of random directed hypergraphs inspired by existent and well-known random graphs models like Erd˝os-Renyi and Newman-Watts-Strogatz. Besides the application examples that we mentioned earlier, directed hypergraphs have also been employed in the field of knowledge representation. In particular, they have been used to compute the modules of an ontology. An ontology is defined as a collection of axioms that provides a formal specification of a set of terms and their relationships; and a module is a subset of an ontology that completely captures the meaning of certain terms as defined in the ontology. In particular, we focus on the modules computed using the notion of syntactic locality. As ontologies can be very large, the computation of modules facilitates the reuse and maintenance of these ontologies. Analysing all modules of an ontology, however, is in general not feasible as the number of modules grows exponentially in the number of terms and axioms of the ontology. Nevertheless, the modules can succinctly be represented using the Atomic Decomposition of an ontology. Using this representation, an ontology can be partitioned into atoms, which are maximal sets of axioms that co-occur in every module. The Atomic Decomposition is then defined as a directed graph such that each node correspond to an atom and each edge represents a dependency relation between two atoms. In this thesis, we introduce the notion of an axiom dependency hypergraph which is a generalization of the atomic decomposition of an ontology. A module in the ontology corresponds to a connected component in the hypergraph, and the atoms of the ontology to the strongly-connected components. We apply our algorithms for directed hypergraphs to axiom dependency hypergraphs and in this manner, we compute the atoms of an ontology. To demonstrate the viability of this approach, we have implemented the algorithms in the application HyS which computes the modules of ontologies and calculate their atomic decomposition. In the thesis, we provide an experimental evaluation of HyS with a selection of large and prominent biomedical ontologies, most of which are available in the NCBO Bioportal. HyS outperforms state-of-the-art implementations in the tasks of extracting modules and computing the atomic decomposition of these ontologies.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Este artigo constitui uma reflexão sobre os modelos teóricos que atualmente problematizam as conceções de significado e de referência. Na sequência desta reflexão, referimos as implicações metodológicas que a atual conceção de significado imprime à semântica, acarretando a observação do uso real das expressões linguísticas e daí a importância dos métodos quantitativos baseados no corpus. Decorrente da afirmação da dimensão pragmática da linguagem e da anulação das tradicionais oposições entre sintaxe, semântica e léxico, em linguística, na segunda metade do século XX, assiste-se a uma renovação teórica e metodológica e à criação de novas áreas disciplinares. Nos anos 80 do século XX, estabelece-se um vínculo entre a linguística, a informática e a psicologia cognitiva, que instaura o que atualmente designamos por ciências cognitivas. A linguística alia-se a este movimento, num momento em que é necessário obter respostas para as questões com que se depara a inteligência artificial e a linguística computacional. Neste ambiente de mutação, a problemática do significado equacionado numa perspetiva geral e do significado entendido numa perspetiva particular ganha relevância. Com a afirmação de uma nova conceção de semântica nos anos 80 e com o desenvolvimento pleno da mesma nos anos 90, as teorias dinâmicas do significado atingem grande relevância. Segundo estas teorias, a interpretação do discurso é processual, ou seja, interpretamos as frases uma a uma em sequência e analisamos cada uma das mesmas como uma ampliação da informação construída. Com as abordagens dinâmicas do significado, assistimos a uma conceção de semântica em que o significado é concebido de forma incremental, quer isto dizer que o significado decorre de uma relação estabelecida entre condições de input e de output. De modo que se descentra da produção e concentra-se na receção. Neste sentido, a maneira como se constrói o discurso constitui como que um guia para o alocutário o interpretar. A problemática associada ao significado, em linguística, revela-se verdadeiramente complexa, considerando a multiplicidade de abordagens teóricas e a pluralidade de áreas disciplinares que abordam a questão.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A partir de 2011, ocorreram e ainda ocorrerão eventos de grande repercussão para a cidade do Rio de Janeiro, como a conferência Rio+20 das Nações Unidas e eventos esportivos de grande importância mundial (Copa do Mundo de Futebol, Olimpíadas e Paraolimpíadas). Estes acontecimentos possibilitam a atração de recursos financeiros para a cidade, assim como a geração de empregos, melhorias de infraestrutura e valorização imobiliária, tanto territorial quanto predial. Ao optar por um imóvel residencial em determinado bairro, não se avalia apenas o imóvel, mas também as facilidades urbanas disponíveis na localidade. Neste contexto, foi possível definir uma interpretação qualitativa linguística inerente aos bairros da cidade do Rio de Janeiro, integrando-se três técnicas de Inteligência Computacional para a avaliação de benefícios: Lógica Fuzzy, Máquina de Vetores Suporte e Algoritmos Genéticos. A base de dados foi construída com informações da web e institutos governamentais, evidenciando o custo de imóveis residenciais, benefícios e fragilidades dos bairros da cidade. Implementou-se inicialmente a Lógica Fuzzy como um modelo não supervisionado de agrupamento através das Regras Elipsoidais pelo Princípio de Extensão com o uso da Distância de Mahalanobis, configurando-se de forma inferencial os grupos de designação linguística (Bom, Regular e Ruim) de acordo com doze características urbanas. A partir desta discriminação, foi tangível o uso da Máquina de Vetores Suporte integrado aos Algoritmos Genéticos como um método supervisionado, com o fim de buscar/selecionar o menor subconjunto das variáveis presentes no agrupamento que melhor classifique os bairros (Princípio da Parcimônia). A análise das taxas de erro possibilitou a escolha do melhor modelo de classificação com redução do espaço de variáveis, resultando em um subconjunto que contém informações sobre: IDH, quantidade de linhas de ônibus, instituições de ensino, valor m médio, espaços ao ar livre, locais de entretenimento e crimes. A modelagem que combinou as três técnicas de Inteligência Computacional hierarquizou os bairros do Rio de Janeiro com taxas de erros aceitáveis, colaborando na tomada de decisão para a compra e venda de imóveis residenciais. Quando se trata de transporte público na cidade em questão, foi possível perceber que a malha rodoviária ainda é a prioritária

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The focus of this qualiquantitative research is the phenomenon we are denominating Drama-of-Rio-Grande-do-Norte, which contemplates short verse texts from the oral tradition, sung and presented on stage by women in communities on the south coast of the northeastern Brazilian State, Rio Grande do Norte. This tradition harkens to the medieval romance of the Iberian Peninsula (CASCUDO, 2001; GURGEL, 1999; GALVÃO, 1993; MAGALHÃES, 1973; ROMERO,1977). The objective of this research is to: identify what characterizes the genre Drama of Rio Grande do Norte; situate this genre within a systemization of genres from the oral tradition in Rio Grande do Norte; investigate the interpersonal relationships of power and solidarity through the role of the women in the discourse, how they see themselves and others, pointing out which elements of the world they evaluate and to identify representations of the feminine in the discourse. The theory of Genre and Register of Martin and Rose (2008) and Generic Structure Potential of Hasan (1989, 1996), which has as a base the Systemic Functional Linguistics of Halliday and Matthiessen (2004), Eggins (1994) among others, offers a theoretical framework for the characterization of the genre through the identification of stages and phases configuring its typology the individual schematic structure and its topology its relation to other phenomena in the oral tradition. Other groupings were mapped of the ‗Macrogenre , from the model of Martin and Rose (2008) as a continuum on two axis: between the poles of how the genre circulates orally x in writing, and recited/individually x staged/collectively; as well as mapping the samples with relation to power using the same model, but with the poles of individual voice x collective voice on an axis between increased power and diminished power. Eleven texts described as Narratives and one Anecdote were selected for the analysis of Attitudes, and Negotiations of power. Through the quantification of semantic discursive resources in the discourse systems of Appraisal (MARTIN; WHITE, 2005) and of Negotiation (MARTIN; ROSE, 2007), as well as reflections about humor (EGGINS; SLADE, 1997) we identified the Attitudes and the Negotiations of interpersonal roles. The quantification is based on the theories of Corpus Linguistics (BERBER SARDINHA, 2010), using WordSmith Tools 5.0 (SCOTT, 2010). Our results show that the Drama-of-Rio-Grande-do-Norte is characterized as a Macrogenre in the Community of Oral Stories, in the Family of Street Theatre/Games, composed of five genre types: Narratives, Praise, Complaints, Anecdotes, and Exemplum. The Macrogenre is characterized by its being circulated orally, staged collectively and the texts analyzed configure in differing degrees of power between men and woman. In synthesis we observe that through humor, the Drama-of-Rio-Grande-do-Norte functions to offer a space for women to voice, comment, judge and orient about social conditions in their communities, such as alcoholism, domestic violence, inequalities before the law etc., as well as circulating positive appreciations of rural/coastal culture and judgments about the behavior of members of the speech community, the role of women being to establish and reinforce norms. We anticipate possible benefits of the addition of the genre analyzed in literacy projects in the schools of Rio Grande do Norte

Relevância:

30.00% 30.00%

Publicador:

Resumo:

No âmbito do Processamento Automático de Línguas Naturais (PLN), o desenvolvimento de recursos léxico-semânticos é premente. Ao conceber os sistemas de PLN como um exercício de engenharia da linguagem humana, acredita-se que o desenvolvimento de tais recursos pode ser beneficiado pelos modelos de representação do conhecimento, desenvolvidos pela Engenharia do Conhecimento. Esses modelos, em particular, fornecem simultaneamente o arcabouço teórico-metodológico e a metalinguagem formal para o tratamento computacional do significado das unidades lexicais. Neste artigo, após a apresentação da concepção linguístico-computacional de léxico, elucidam-se os principais paradigmas de representação do conhecimento, enfatizando a abordagem do significado e a metalinguagem formal vinculadas a cada um deles.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pós-graduação em Linguística e Língua Portuguesa - FCLAR

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pós-graduação em Linguística e Língua Portuguesa - FCLAR

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A área da Tecnologia da Informação no Brasil sofre um problema latente com a falta de planejamento e atrasos constantes em projetos, determinando para os profissionais vinculados a ela um ambiente altamente desmotivador para a condução de seus trabalhos. Supõe-se que o que possa corroborar para tal problema seja a formação educacional deficitária dos indivíduos que atuam neste segmento, principalmente aqueles relacionados a cargos executivos e que estejam exercendo atividades de gestão. De acordo com teóricos como Edgard Morin (2004), em se tratando de educação fundamental, média ou superior os aspectos educacionais podem ser considerados deficitários justamente porque, ao segmentar o conhecimento, eles promovem uma alienação do indivíduo, eliminando sua capacidade criativa e reflexiva. Seria interessante, portanto, que ao avaliar a capacidade cognitiva de uma pessoa, a inteligência a ser mensurada não seja abordada através de um único espectro de conhecimento, mas através de muitos deles. A teoria das Inteligências Múltiplas, desenvolvida por Howard Gardner vem de encontro a essa necessidade, pois de acordo com o autor, a inteligência de um indivíduo deve ser mensurada através de uma gama de nove espectros: Linguística, Musical, Lógico-Matemática, Espacial, Corporal Cinestésica, Interpessoal, Intrapessoal, Naturalista e Existencial. Isto posto, este trabalho aborda uma metodologia computacional para classificação e descoberta de padrões em indivíduos, sejam esses alunos ou profissionais graduados, de uma determinada área. Além da metodologia, foi proposto um estudo de caso, considerando cursos superiores relacionados à área de Computação no Brasil.